剪枝

研究表明:划分选择的各种准则虽然对决策树的尺寸有较大影响,但是对泛化性能的影响很有限,而剪枝方法和程度对决策树泛化性能的影响更为显著!

判断剪枝前后泛化性能

  • 模型评估方法
    • 错误率
    • 精度

预剪枝

  • 通过判断划分前后整个树上对样本集的精度来决定是否剪枝
    • 如果划分后精度下降或者精度不变(奥卡姆剃刀之树越简单越好)
      • 拒绝分裂(有欠拟合风险
    • 如果精度升高
      • 分裂

后剪枝

  • 先构造整棵树,在从最深处开始剪枝(越深的分支越容易过拟合
    • 如果剪枝后精度下降或者精度不变(奥卡姆剃刀之步骤越少越好
      • 保留
    • 如果剪枝后精度上升
      • 剪枝

预剪枝VS后剪枝

  • 预剪枝
    • 测试时间开销降低,训练时间减少,欠拟合风险增加
  • 后剪枝
    • 测试时间开销降低,训练时间增加,欠拟合风险基本不变